home *** CD-ROM | disk | FTP | other *** search
/ EnigmA Amiga Run 1996 February / EnigmA AMIGA RUN 04 (1996)(G.R. Edizioni)(IT)[!][issue 1996-02][Skylink CD III].iso / earcd / gnu / ispell31p3bin.lha / ispell-3.1.18bin / doc / BuildDictionary.doc < prev    next >
Text File  |  1995-09-21  |  6KB  |  147 lines

  1.                Building new dictionaries
  2.                ~~~~~~~~~~~~~~~~~~~~~~~~~
  3.                     by Jesper Skov
  4.  
  5.  
  6. Making new dictionaries is not very hard, but you'll have to interpret the
  7. Makefile yourself.
  8.  
  9. Below is a complete example where I rebuild the English and Danish
  10. dictionaries after re-compiling the ispell programs with the MASKBITS
  11. variable set to 128.
  12.  
  13.  
  14. [First the fix8bit tool is compiled - you will only need this with certain
  15.  languages, e.g. Danish as we have funky letters :) ]
  16.  
  17. >cd languages/
  18. >make fix8bit
  19. + gcc -O2 -DAMIGA -Iinclude: -o fix8bit fix8bit.c
  20.  
  21.  
  22. [Then the English dictionary is build. It consists of multiple wordlists so I
  23.  use sort to construct a single wordlist. You may control what sub lists are
  24.  included, thus changing the size and "power" of the dictionary. See the
  25.  Makefile for some pre-defined dictionary sizes.]
  26.  
  27. >cd english/
  28. >dir
  29. -----rw-d       4     1769 Jan 23  1995 altamer.0
  30. -----rw-d       1      402 Nov  2  1994 altamer.1
  31. -----rw-d       2      856 Nov  2  1994 altamer.2
  32. -----rw-d      18     8831 Jan 23  1995 american.0
  33. -----rw-d       9     4410 Jan 23  1995 american.1
  34. -----rw-d      80    40591 Jan 23  1995 american.2
  35. -----rw-d      19     9477 Jan 23  1995 british.0
  36. -----rw-d       9     4500 Jan 23  1995 british.1
  37. -----rw-d      81    41194 Jan 23  1995 british.2
  38. -----rw-d     364   186058 Jan 23  1995 english.0
  39. -----rw-d     270   137937 Jan 23  1995 english.1
  40. -----rw-d     618   316348 Jan 23  1995 english.2
  41. -----rw-d     338   172832 Jan 23  1995 english.3
  42. -----rw-d      14     6916 Jan 25  1994 english.4l
  43. -----rw-d      12     5688 Jan 23  1995 english.aff
  44. -----rw-d      35    17536 Nov  2  1994 Makefile
  45. ----arwed      27    13670 Jan 23  1995 msgs.h
  46. Dirs:0    Files:17   Blocks:1901  Bytes:969015  
  47. >bin:sort -u -t/ +0f -1 +0 -o english.med english.0 american.0 altamer.0 british.0 engl
  48. ish.1 american.1 altamer.1 british.1
  49. >dir
  50. -----rw-d       4     1769 Jan 23  1995 altamer.0
  51. -----rw-d       1      402 Nov  2  1994 altamer.1
  52. -----rw-d       2      856 Nov  2  1994 altamer.2
  53. -----rw-d      18     8831 Jan 23  1995 american.0
  54. -----rw-d       9     4410 Jan 23  1995 american.1
  55. -----rw-d      80    40591 Jan 23  1995 american.2
  56. -----rw-d      19     9477 Jan 23  1995 british.0
  57. -----rw-d       9     4500 Jan 23  1995 british.1
  58. -----rw-d      81    41194 Jan 23  1995 british.2
  59. -----rw-d     364   186058 Jan 23  1995 english.0
  60. -----rw-d     270   137937 Jan 23  1995 english.1
  61. -----rw-d     618   316348 Jan 23  1995 english.2
  62. -----rw-d     338   172832 Jan 23  1995 english.3
  63. -----rw-d      14     6916 Jan 25  1994 english.4l
  64. -----rw-d      12     5688 Jan 23  1995 english.aff
  65. -----rwed     688   351911 Sep 14 15:57 english.med
  66. -----rw-d      35    17536 Nov  2  1994 Makefile
  67. ----arwed      27    13670 Jan 23  1995 msgs.h
  68. Dirs:0    Files:18   Blocks:2589  Bytes:1320926 
  69. >buildhash english.med english.aff english.hash
  70. Counting words in dictionary ...
  71. 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000 
  72. 17000 18000 19000 20000 21000 22000 23000 24000 25000 26000 27000 28000 29000 30000 310
  73. 00 32000 
  74. 32433 words
  75. 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 1600
  76. 0 17000 18000 19000 20000 21000 22000 23000 24000 25000 26000 27000 28000 29000 30000 3
  77. 1000 32000 
  78. >dir
  79. -----rw-d       4     1769 Jan 23  1995 altamer.0
  80. -----rw-d       1      402 Nov  2  1994 altamer.1
  81. -----rw-d       2      856 Nov  2  1994 altamer.2
  82. -----rw-d      18     8831 Jan 23  1995 american.0
  83. -----rw-d       9     4410 Jan 23  1995 american.1
  84. -----rw-d      80    40591 Jan 23  1995 american.2
  85. -----rw-d      19     9477 Jan 23  1995 british.0
  86. -----rw-d       9     4500 Jan 23  1995 british.1
  87. -----rw-d      81    41194 Jan 23  1995 british.2
  88. -----rw-d     364   186058 Jan 23  1995 english.0
  89. -----rwed       1        6 Sep 14 15:58 english.0.cnt
  90. -----rwed       5     2106 Sep 14 15:58 english.0.stat
  91. -----rw-d     270   137937 Jan 23  1995 english.1
  92. -----rw-d     618   316348 Jan 23  1995 english.2
  93. -----rw-d     338   172832 Jan 23  1995 english.3
  94. -----rw-d      14     6916 Jan 25  1994 english.4l
  95. -----rw-d      12     5688 Jan 23  1995 english.aff
  96. -----rwed    2255  1154482 Sep 21 14:20 english.hash
  97. -----rwed     688   351911 Sep 14 15:57 english.med
  98. -----rwed       1        6 Sep 21 14:20 english.med.cnt
  99. -----rwed       5     2107 Sep 21 14:20 english.med.stat
  100. -----rw-d      35    17536 Nov  2  1994 Makefile
  101. ----arwed      27    13670 Jan 23  1995 msgs.h
  102. Dirs:0    Files:23   Blocks:4856  Bytes:2479633 
  103. >copy english.aff english.hash english.med english.med.cnt english.med.stat
  104. \ispell:lib
  105. >cd /
  106.  
  107. [Now rebuild the Danish dictionary. There is only one word list so sort is
  108.  not used. The fix8bit tool is used to 8-bit correct the affix file.
  109.  BTW: the word list is found at one of the suggested sites in
  110.  languages/Where. It is not part of the Ispell distribution.]
  111.  
  112. >cd dansk/
  113. >dir
  114. -----rw-d      11     5464 Jan 23  1995 dansk.7bit
  115. -----rw-d     632   323386 Jun 29 19:53 dansk.med
  116. -----rw-d       9     4594 Nov  2  1994 Makefile
  117. Dirs:0    Files:4    Blocks:663   Bytes:338758  
  118. >../fix8bit -8 < dansk.7bit > dansk.aff
  119. >dh3:ispell-3.1.18Work/buildhash dansk.med dansk.aff dansk.hash
  120. Counting words in dictionary ...
  121. 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000 
  122. 17000 18000 19000 20000 21000 22000 23000 24000 25000 26000 27000 
  123. 27606 words
  124. 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 1600
  125. 0 17000 18000 19000 20000 21000 22000 23000 24000 25000 26000 27000 
  126. >dir
  127. -----rw-d      11     5464 Jan 23  1995 dansk.7bit
  128. -----rwed      11     5314 Sep 21 14:40 dansk.aff
  129. -----rwed    2091  1070528 Sep 21 14:41 dansk.hash
  130. -----rw-d     632   323386 Jun 29 19:53 dansk.med
  131. -----rwed       1        6 Sep 21 14:41 dansk.med.cnt
  132. -----rwed       5     2106 Sep 21 14:41 dansk.med.stat
  133. -----rw-d       9     4594 Nov  2  1994 Makefile
  134. Dirs:0    Files:7    Blocks:2760  Bytes:1411398 
  135. >copy dansk.aff dansk.hash dansk.med dansk.med.cnt dansk.med.stat ispell:lib
  136.    dansk.aff..copied.
  137.    dansk.hash..copied.
  138.    dansk.med..copied.
  139.    dansk.med.cnt..copied.
  140.    dansk.med.stat..copied.
  141. >
  142.  
  143. That's it. I hope this little document will make it easier for you to build
  144. dictionaries. If there are any "bugs" in this doc, please inform me thereof!
  145.  
  146. /Jesper
  147.